Praca Domowa 5

Bartosz Siński Winiarze

W poniższej pracy wyliczymy profile Partial Dependence Profiles (PDP) i Accumulated Local Dependence (ALE) dla wytrenowanych przez nas modeli. Otrzymane wyniki wykorzystamy do porównania modeli między sobą i szukania korelacji w naszym zbiorze danych. Dodatkowo porównamy otrzymane wyniki z wnioskami wynikającymi z poprzedniej pracy domowej, gdzie dla wybrancyh obserwacji wyliczaliśmy Ceteris Paribus.

Wczytanie modeli i zbioru danych

Przygotowanie explainerów

PDP dla wybranego przez nas modelu XGBoost

Największa różnicą pomiędzy PDP, a Ceteris Paribus dla wybranych obserwacji jest to, że wykresy PDP są gładsze i mają mniejsze skoki w wartościach. Potwierdzają się także nasze wnioski z wyjaśnień Ceretis Paribus, gdzie zauważyliśmy, że zależność między oceną wina, a zawartością alkoholu jest bardziej złożona niż nam się wydawało. Tutaj widzimy, że największe prowdopodobieństwo zaklasyfikowania wina jako dobrego jest dla zawartości alkoholu z przedziału (11.6, 12.8). Ciekawe wykresy są także dla całkowitej zawartości dwutlenku siarki (total sulfur dioxide) i zawartości siarczanów (sulphates), gdzie w pierwszym mamy bardzo duży spadek, w drugim wzrost wartości predykcji naszego modelu.

Porównanie profili PDP dla różnych modeli

Zdecydowanie modelem z najbardziej odstającymi wykresami dla wartości objaśnianych jest SVM. Wykresy dla zmiennych takich jak waga cząsteczek siarki (free sulfur dioxide), zawartości siarczynów (sulphates) i całkowita zawartość dwutlenku siarki (total sulfur dioxide) nie pokrywają się z resztą modeli. SVM wszędzie poza zminną density ma większe zmiany w wartościach. Dla reszty modeli wykresy idą prawie identyczne z największą różnicą w alkoholu gdzie Random Forest nie ma tak dużego skoku w zawartości alkoholu równej 11.5 .

ALE i PDP dla wybranego przez nas modelu

Dla wszystkich zmiennych wykresy PDP i ALE są równoległe co sugeruje, że wybrany przez nas model XGBoost dla danego zbioru danych jest addytywny. Najwięszka różnica w wartościach występuje przy zawartości siarczanów (sulphates).

Porównanie profili ALE dla różnych modeli

Najbardziej od wykresów PDP, różnią się wykresy ALE dla modelu SVM. Zmniejszone zostało prawdopodobieństwo zaliczenia wina do dobrych przy zmianie wartości całkowitej zawartości dwutlenku siarki (total sulfur dioxide) oraz zwiększyło się się przy zmianie zawartości cząsteczek dwutlenku siarki (free sulfur dioxide). Dodatkowo przy wyliczaniu profili ALE SVM wydaje się mniej odstawać od reszty modeli niż w przypadku PDP. U wszystkich modeli pradopodobieństwo zaliczenia wina do dobrych w zależności od zawartości siarczanów (sulphates) podniosła się.

Wnioski

Z wytrenowanych przez nas modeli przy wyliczaniu profili PDP i ALE najbardziej odstawał SVM. Wykresy wartości predykcji były bardziej zmienne i miały większe różnice w wartościach. We wcześniejszej pracy domowej gdzie dla naszych modeli wyliczaliśmy permutacyjną ważność zmiennych SVM przypisywał free sulfur dioxide i total sulfur dioxide zdecydowanie wyższe wartości niż reszta modeli. Tutaj za to widzimy, że wartości prawdopoboieństwa w SVM są zdecydowanie bardziej wrażliwe na zmiany wartości tych zmiennych.